炙手可热的“发展影响力债券”，评估时必做这四件事 | 测量与评估

Original SSIR 斯坦福社会创新评论 2022-05-18

收录于合集 #测量与评估 26个

导读：汪伟楠，北京师范大学社会发展与公共政策学院博士

在国际范围考察，发展影响力债券（development impact bonds）是一个新概念，一个理念与方法上的创新，一种刚刚兴起的工具。正如我们今日的荐文中所提到的，它炙手可热，但尚未经受过普遍的检验。

我们可将DIB视为社会影响力债券（social impact bonds，SIB）在应用场景上的迁移：DIB与SIB在理念与工作原理上相一致，但在应用上，DIB专注于发展议题，更关注欠发达地区的发展。在实践中，首单SIB由英国非营利组织社会金融公司（Social Finance Ltd.）于2010年设立；4年后，下文作者们所在的Idinsight与CIFF, Educate Girls等机构一同，设计、启动并运作了第一个DIB项目，也就是文中提到的“女童教育项目”。在项目中，Idinsight承担了作为“评估者”的关键角色。

介绍DIB、SIB的细节，并非我们这个简短的导言能够办到。不过，在这里，笔者可以分享了解此类创新的一点经验：同时关注“理念”与“操作”这两个面向。

深切理解公益领域的不足、在理念上寻求突破，为DIB、SIB提供了“必要”的理由。在这方面，DIB及SIB有着鲜明的价值主张：“为结果付费”。显然，这种主张所尝试面对的，正是此前公共领域普遍存在的低效、付费不合理的现象，并尝试引入商业思维来寻求改善。

当然，仅有理念是不够的。在操作上，DIB设计了一套运作流程，一个多元主体相互合作的结构。在该框架里，有着投资者、执行者、评估者、买单者等不同的角色。执行者通常由运作型NGO担任，包含执行者在内的各角色常分属政府、市场、社会等不同部门，体现了跨部门的治理合作。简单来说，DIB的运作流程是：1. 首先由各方共同设立目标；2. 再由投资者先期向执行者支付费用；3. 执行者开展其工作；4. 评估者对工作进行评估，如工作达到了预设的目标，那么买单者“为结果买单”，承担费用；在这种情况下，投资者不仅能收回投资，还能取得一定的回报。

不难看出，在上述整个流程中，“结果”的“衡量”可谓是重中之重。“为结果付费”的理念虽好，但“结果衡量”的“可能性”与“技术”却是决定这种理念的“适用范围”与“适用效果”的关键。作为亲历者，本文的作者现身说法，分享了“测量”时需考虑的诸多细节，值得仔细研读。DIB能否接受住普遍的检验、能否在国内环境得到推广；针对种种相关问题，结合本文提供的这些细节，我们均能够进行一些思考。

▲ 一名IDinsight调查员在拉贾斯坦邦的曼达尔加勒邦实施ASER评估，以衡量学习成果。(照片由雷恩•法伯尔Ryan Fauber摄)

议题编辑：林夕、姚森议题顾问：汪伟楠作者：凯特•斯图拉、尼尔•巴迪•沙阿、杰夫•麦克马纳斯译者：孙韬校对：洪静澜

在过去的一年里，发展影响力债券，即国际发展的最新热门趋势DIBs，引起了来自拥护者和反对者的巨大反响，同时也带来了大量的资金。最新的活动包括印度的1100万美元的教育影响力债券、非洲的第一个发展影响力债券、几个雄心勃勃的成果基金（包括两个旨在筹集10亿美元的基金），以及最近召开的一个充满重量级参与者的全球会议。虽然所有这些努力都旨在推动将支付与人们生活的真正提高联系在一起的理念，但它们也表现出了对 “影响力”真正含义的巨大理解差异或是混淆。

随着这一新兴领域的迅速发展，我们迫切需要围绕影响力的含义、如何衡量影响力以及如何将影响力与支付联系起来等问题，制定一套共同的标准。随着数十亿美元的资金即将流入这些工具，如果我们做错了会产生巨大的后果。一方面，我们有可能通过确保资金流向改善生活的项目，激励服务提供者解决困难的问题。另一方面，我们有可能在复杂的金融工具上浪费大量的时间和金钱，因为这些工具可能使实施者和捐助方远离最有影响力的活动，带来适得其反的效果。作为一个部门，我们需要继续专注于主要目标：将资金投入到我们有信心改善生活的项目中。

在IDinsight，我们在对世界上第一个完成的发展影响力债券项目 "女童教育发展影响力债券 "的评估中首次直接解决了这些问题，该项目旨在改善印度拉贾斯坦邦农村地区边缘化学生的教育成果。目前，我们还在评估非洲的第一个发展影响力债券，即 "乡村企业发展影响力债券"，该项目旨在创建4000多个可持续的微型企业，使肯尼亚和乌干达农村贫困家庭受益。此外，我们还在为其他各种影响力债券和成果基金提供咨询。基于这些经验，我们制定了一些衡量未来影响力债券的核心原则，目的是最大限度地提高这一工具实现其改善生活的承诺。以下是影响力债券的评估必须做的四件事。

01衡量什么是重要的

影响力债券的拥护者称赞其对结果的"激光聚焦 "。然而，就像发射激光一样，你需要首先瞄准正确的目标。这一点很重要，因为影响力债券通过事先设定影响目标并将成功与付款挂钩，形成高压激励机制，以激励执行者的执行。如果谨慎选择的话，这些激励措施可以帮助实施者更有效地改善生活。然而，选择错误的结果可能会迫使实施者在实现目标和帮助人们之间做出双输的决定。

所有的影响力债券都应该基于以下成果，即 1) 能真正改善人们的生活，2) 可以衡量，3) 在压力下能坚持下去。

选择重要的成果意味着要认真思考一个项目的成功到底是什么样子。对于教育干预，成功往往意味着学习的增加。对于健康干预来说，它可能意味着死亡率或疾病的减少。虽然正确的结果可以而且应该因环境而异，但它也应该反映出人们生活的真正改善。衡量投入而不是成果会使实施者陷入一种特定的做事方式，而这可能不会产生你真正想要的影响。

让我们以"女童教育 "项目为例来做一些思考。该项目旨在通过志愿者的补习教学来改善教育成果。追踪该项目是否提供了特定的投入（比如招募一定数量的志愿者或进行一定数量的课堂教学）可能会阻碍我们了解拉贾斯坦邦农村公立学校真正需要什么。但是，由于发展影响力债券的支付主要与学习收益挂钩，而不是与具体活动挂钩，因此，"女童教育 "可以无情地对计划中不奏效的部分进行重大改变。当第一年年底的成绩显示增长低于目标时，它在第二年推出了全新的课程；当增长仍然滞后时，它又增加了上门补习教学作为志愿者的核心责任。如果将目标与特定的活动挂钩，那么女童教育组织将无法做出这些大胆而必要的改变。

虽然影响力债券的成果应该是有意义的影响，但它们也需要是可衡量的。“模糊不清 ”或不可靠的衡量标准会破坏激励机制，引起冗长的重新谈判，并会使影响力债券的参与者感到他们的成败得失没有得到充分的反馈。有些事情很难界定和衡量：例如，"这个孩子的适应能力强吗"比 "这个孩子能不能用印地语读出一个句子"更难衡量。在考虑可能的成果衡量标准时，我们最好采用能直接观察的成果，并识别出那些已经在使用的、明确的成功定义。为指导青少年进行更安全的性行为的公共卫生干预措施的影响力债券，可能不应该将付款与 “自我报告避孕药具的使用情况”挂钩，众所周知，这种情况是不可靠的。但你也许可以将青少年怀孕数的减少设定为目标。

成果指标也必须是难以人为操纵的。影响力债券不只是促使参与者向着目标前进，而是让每个人的脚踩在火上。你应该期望实施者认真对待所选择的成果，甚至是按字面所写来执行。这意味着相对薄弱的衡量标准，如自我报告的 "勇气"（复原力）测试，在压力下可能会不成立。如果每个人都知道，项目的最终成败将由孩子的自我报告的某些技能来判断，那么就会有不可思议的压力，要辅导孩子们给出 "正确 "的答案，而不一定要培养孩子们所要掌握的基本技能。即使是这些工具的拥护者，也常常同意项目不应该在高风险的环境中使用这些工具。例如，开发 "勇气 "量表的安吉拉•达克沃思(Angela Duckworth) 就曾反对将其纳入加州某些评估的计划中。

02准确归功

发展影响力债券的核心价值主张——为结果付费——取决于我们准确衡量项目成功与否的能力。任何对影响力债券的评估都必须令人信服地衡量该项目的影响，而不是任何可能发生的变化。如果评估不能做到这一点，那么发展影响力债券们的潜在效益就会崩溃。对实施者良好绩效的激励措施将缺席或被扭曲；成果支付者不能确信他们是在为结果买单；投资者也不知道他们是否会因为一个成功的项目而得到公平的补偿。

有很多例子可以说明为什么做对这一点非常重要。在之前对 "女童教育 "项目的评估中，研究人员发现项目学校的入学率实际上是下降的。然而，来自附近学校的数据显示，整个地区的入学率下降得更厉害。“女童教育”计划实际上在减缓外力造成的学生外流方面是相当成功的。但是，以项目学校的简单入学人数为基础的影响力债券会给投资者带来不公平的回报，并错误地显示出“女童教育”项目产生了负面的影响，而事实上恰恰相反。

高估影响力也会带来麻烦。例如，2015年高盛集团在犹他州资助的一项社会影响力债券项目引发了争议，有人声称评估结果高估了该项目帮助的儿童人数，因为它缺乏可信的比较组。这些疑虑与高盛公司从一个旨在帮助学龄前儿童减少特殊教育需求的项目中赚取了一笔不菲的利润这一事实相辅相成，这也引发了人们对社会影响力债券优先考虑投资机会而非社会力影响的担忧。

衡量影响力是否总是意味着进行随机对照试验（RCT）？不一定。但它总是需要进行某种可信的比较，这样我们就可以比较在该项目下发生的事情和如果没有该项目会发生的情况。学术文献提供了数百个关于如何可靠地衡量社会项目的影响力的例子。具体的方法应该根据它所衡量的结果，以及项目的实施和预算限制来确定。

在可行的情况下，随机对照试验是一个很好的方法，可以对项目影响进行如铁般牢靠的估计。但也有一系列的准实验设计，这些设计试图模仿随机化，在某些情况下也能发挥作用。（例如，IDinsight经常采用匹配研究，根据某些可观察到的特征，精心构造一个对照组，以匹配实验组）。当然，魔鬼就在细节中，组织必须注意检查评估，无论是随机对照试验还是使用不同的方法，都要注意检查评估的设计是否恰当。我们建议对影响力债券的评估设计进行外部审查，由合格的专家来做。我们不是在建议极其冗长或昂贵的审查过程，而是建议由方法学专家对主要的设计决定和假设进行快速检查，这样捐赠者可以确信他们是在为实际影响力付费。

虽然评估设计应该符合影响力债券的具体情况，但考虑到大多数项目运作的复杂和动态的环境，我们一般都会提醒大家对广泛使用的前后设计保持谨慎。如果没有一个比较组来代表 "基准情形 "的变化，就不可能知道哪些变化是项目的结果，哪些是外部力量造成的。正如我们从 "女童教育 "和高盛公司的影响力债券的例子中看到的那样，这不仅仅是关于获得的结果稍有偏差，这种方法可能会导致我们关于“一个项目是否有效”的结论完全错误，从而破坏了影响力债券 "为结果买单 "的整个目的。

03促进创新

到目前为止，全球范围内围绕影响力债券的衡量方式的讨论主要集中在如何建立问责制上。但是，"女童教育发展影响力债券 "显示，影响力债券的隐性超级力量可能是鼓励快速学习和改进。运用影响力债券可以通过将明确的目标与分辨“有效的和不起作用的东西”的洞察力结合起来，直接推动项目所追求的改变。

在 "女童教育发展影响力债券 "的头两年，该计划没有达到目标。虽然内部评估显示出稳定的增长，但评估数据显示，增长仅限于定期上学的儿童。同时，那些长期缺课的孩子，以及未纳入"女童教育 "的数据中的孩子则远远落在了后面。在项目仅剩一年的时间里，该项目似乎不太可能达到学习目标。然而，发展影响力债券的灵活性让"女童教育 "发现了长期缺课的学生的潜力，并对课程进行了大的修正，包括在项目中增加了志愿者到学生家中进行补习辅导。结果呢？到三年级结束时，这些学生的学习成绩几乎赶上了同龄人，使 "女童教育 "在最后一年的学习成绩比目标高了60%。如果发展影响力债券只依赖来自实施者内部评估的有效数据，就像许多影响债券评估一样，我们将永远不会发现长期缺课的学生的这个问题，"女童教育 "也不会增加家访，许多孩子会被落下。

▲ 上图：在评估过程中，项目实施学校的学生的学习成绩超过了对照学校的学生，尤其是在最后一年；下图：由于最后一年的表现很好，"女童教育 "学校的学生的成绩比发展影响力债券的学习目标高了60%。

换句话说，投资于严格的评估是值得的。糟糕的评估会给利益相关者提供有关进展情况的误导性信息，从而破坏项目的有效性，最终影响到影响力债券。实施者和投资者应该去考虑评估什么是有效的，什么是无效的，并在过程中进行修正。

你还可以通过有针对性地收集更多的数据来创造学习机会。在女童教育发展影响力债券中，大部分的支付都是基于最后一年的评估结果。因此，一个比较精简的评估可能只对最后一年的学生进行评估。但是，通过多次的评估，我们能够帮助实施者跟踪目标的进展，确定需要改进的领域，并根据IDinsight的数据检查其内部评估。同样，收集学习成绩以外的数据——如性别、种姓和缺勤率等——使我们能够确定项目的受益者是谁，以及谁被遗漏了，从而使 "女童教育 "能够做出有针对性的调整。

04适当规模的评估

批评者往往以其复杂性和成本高为由敲打影响力债券，他们说的有道理。为了使影响力债券能够实现其承诺，它们必须在质量和效率之间找到平衡点。然而，这不应该意味着不分青红皂白地削减成本。相反，影响力债券的设计者必须在不同的测量方法之间进行深思熟虑的权衡，以获得最大的成本效益。

幸运的是，大多数评估涉及的固定成本并不随项目规模的大小而变化。一个规模是女童教育发展影响力债券的10倍的教育项目，在大多数情况下，评估成本大致相同。随着影响力债券的规模越来越大，评估的相对成本就会降低。

举个这方面的例子：尽管与印度相比，东非地区的交通和人工成本较高，但我们对“乡村企业发展影响力债券”的评估费用是“女童教育发展影响力债券”的五分之一（按占发展影响力债券总成本的比率来算）。我们通过两个主要机制，使评估费用与总预算的比例大大降低。首先，乡村企业发展影响力债券的规模要大得多（总预算526万美元，而女童教育发展影响力债券的预算不到100万美元）。第二，我们保留了严格评估的核心要素，但在增加一些对估计对发展影响力债券指标的影响不是绝对必要的活动时，我们极度挑剔。例如，我们没有将所有参与评估的家庭都包括在内，而是随机选择了12%的合格家庭中的代表性样本，以产生足够精确的成果支付者估计。我们取消了基线数据收集，因为这对于估计影响力并不是严格意义上的必要条件；通过随机分配大量的村庄样本到实验组和对照组，我们可以充分相信，实验组和对照组在统计学上是平均相等的，任何差异都可以归因于项目。我们通过培训调查员使用数字数据采集工具来降低数据采集成本，避免了昂贵的数据输入和重复的质量检查。最后，在可能的情况下，我们尽可能的依靠现有的行政数据，比如乡村企业的转账收据数据，并有针对性的进行抽查验证，而不是重新采集同样的指标。

当然，评估成本和实施者可以用来提高项目的有效性的证据的丰富性，这两者之间存在着权衡。因此，影响力债券应在成本与评价可能产生的其他信息的价值之间取得平衡。这些相互竞争的评价目标会影响到谁来承担评价费用。在大多数影响力债券中，成果支付者，即最直接从确保项目成功的准确核算中受益的人，承担评价费用。然而，实施者或投资人可以考虑支付中期数据收集费用，以便为项目的修正提供信息，增加实现目标的机会。

正确地衡量“发展影响力债券”

影响力债券是在所有情况下都是正确的工具吗？不幸的是，不是。影响力债券需要大量的工作吗？目前来说，是的。Instiglio、社会金融和布鲁金斯等机构有很多聪明的人在努力使其变得更简单，降低交易成本，但它们很可能永远比传统的捐赠更复杂。

同时，我们对许多支持影响力债券的说法持谨慎乐观的态度。如果我们能够正确地衡量，我们相信它们有可能从根本上改变发展部门的关注点，从投入到结果，并为具有挑战性的社会问题带来新的资金和解决方案。我们还亲眼目睹了影响力债券如何表现得如“创新的实验室”一般。

与此同时，数十亿美元的资金已经流向了这个新的、基本上还没有经过检验的工具。因此，我们更有理由要确保以合理的方法来衡量这些复杂的结构的影响力。10年后，我们希望确保影响力债券能够拯救生命和减少贫困，而不是成为又一个失败的发展潮流的警示故事。为了让这个积极的故事成为现实，我们需要在我们已经知道的关于影响力的意义和如何衡量影响力的方法的基础上再接再厉。

作者：凯特•斯图拉（Kate Sturla ）是IDinsight的副主任。她曾监督过IDinsight在印度的教育、卫生和农业领域的活动，并领导了IDinsight对 "女童教育发展影响力债券 "的评估工作；尼尔•巴迪•沙阿（Neil Buddy Shah），医学博士，是IDinsight的首席执行官和联合创始人之一；杰夫•麦克马纳斯（Jeff McManus）是IDinsight公司的高级经济学家，曾在印度和非洲设计并实施了社会部门项目的影响力评估。他设计了 "女童教育发展影响力债券 "和 "乡村企业发展影响力债券"的评估。

如果你对该议题感兴趣

欢迎扫码

添加福娃微信

加入我们的研学小组！

▼

专题回顾

1. 创新的效果如何测量？善用不确定性

2. 5个步骤打造一个令人信服的影响力评估 | 测量与评估

3. 如何做好慈善事业的监测与评估？这三个要素最重要

4. 诺奖得主的“扶贫行动实验室”有什么新思路？

5. 影响力投资中的“影响力”怎么衡量？

6. 怎么给受助机构设KPI？这五大陷阱要留心